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摘要 : [目的 /意义 ] 微 博 已 成 为 大 众 情感 表达 的 重要 平台 , 微 博 的 情感 分 析 在 与 情 
[ 方法/ 过程] 提出 的 情感 倾向 分 类 算法 WE_SDAE 使 用 单词 谱 入 的 方式 将 微 博 表 
处 理 的 方式 将 基本 的 自动 编码 器 算法 优化 成 深层 嗓音 自 


气 等 方面 有 着 重要 的 作用 。 
示 成 一 个 低 维 稠密 向 量 ,然后 通过 添加 正则 项 和 加 骂 


Wa XA 


分 析 、 用 户 体 验 、 商 机 控 


并 在 顶层 添加 分 类 器 ,实现 情感 倾向 分 类 。 考 虑 到 微 博 用 词 灵活 ,还 从 单字 和 词语 两 个 粒度 训练 模 
型 。[ 结果/ 结论] 实验 结果 表明 ,基于 单字 粒度 的 模型 表现 优 于 基于 词语 粒度 的 模型 。 此 外 ,对 比 实验 显示 


WE SDAE 算法 优 于 传统 的 SVM Naive -Bayes XgBoost 等 相关 算法 ;单词 谱 入 的 方式 优 于 传统 的 向 量 


表示 方法 ,能 在 微 情 情感 分 析 中 取得 较 好 的 效果 。 
二 关键 情感 分 析 分 类 自动 编码 器 S 
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空间 模型 


微 博 包 含 了 用 户 丰 富 的 情感 信息 。 随 着 微 博 的 全 
Eie , 越 来 越 多 的 用 户 习 惯 于 在 微 博 上 描述 个 人 的 
符 肖 经历, 表达 自己 的 情感 体验 或 者 点 评 社会 时 事 热 
点 司 微 博 中 往往 记录 着 每 位 用 户 的 点 滴 喜 怨 喜 乐 。 这 
些 情感 信息 的 提取 与 研究 能 够 帮助 政府 开展 更 为 及 时 
有 效 的 与 情 引 导 ,帮助 企业 改进 产品 的 用 户 体验 ,帮助 
创 洲 者 挖 据 潜 力 巨 大 的 商机 。 但 是 , 微 博文 本 较 短 , 表 
达 厅 规范 ,传统 的 方法 已 经 无 法 很 好 地 满足 微 博 的 处 
理 需 求 , 迫切 地 需要 可 以 高 效 提取 微 博 情感 倾向 的 新 


1 相关 研究 


| 对 情感 分 析 的 研究 主要 是 从 粗 粒度 和 细 粒 度 两 
个 方面 展开 。 粗 粒度 主要 是 指 篇 章 和 句子 层面 ,关注 
于 整 篇 文档 或 整个 句子 积极 或 消极 的 情感 态度 ; 细 粒 
度 则 主要 关注 字 词 层面 ,关注 整体 情感 下 面 的 细节 态 
RE ,如 积极 情感 下 的 高 兴 、 漂 亮 、 点 赞 、 轻 松 等 更 具体 的 
情感 态度 。 由 于 微 博 篇 幅 较 短 、 字 数 不 多 ,难以 深入 到 
细 粒 度 人 研究 ,而 且 大 多 数 微 博 表达 态度 明确 单一 ,因此 
适合 于 粗 粒 度 的 情感 分 析 。 

目前 , 微 博 领域 的 情感 分 析 主 要 包括 基于 情绪 知 


sm 


识 和 基于 传统 机 器 学 习 方 法 两 类 。 情 绪 知 识 可 以 是 特 
定 的 情绪 词 标签 信息 ,情感 词典 .表情 符号 等 。P. D. 
Turney 等 中 选取 “excellent” 和 “poor” 两 个 情绪 词 作为 
种 子 词 ,然后 抽取 句子 中 的 形容 词 ,与 这 两 个 种 子 词 分 
别 计算 互信 息 ,按照 互信 息 的 值 确 定 句 子 的 情感 倾向 ; 
任远 等 “针对 情绪 词 词性 提出 了 更 为 精细 的 划分 方 
法 ,并 尝试 引入 主题 因素 ,设计 了 面向 主题 的 自 适应 情 
感 分 类 方法 ;L，Barbosa 等 ”考虑 了 twitter 的 结构 特征 
和 词汇 信息 ,利用 了 极 性 标签 信息 完成 对 twitter 情感 
倾向 性 的 判断 ; 庞 磊 ”等 人 利用 微 博 中 的 情绪 词 和 表 
情 图 片 来 获取 微 博 的 情感 倾向 ; 潘 明 慧 等 ”将 表情 符 
词典 与 传统 的 情绪 词典 进行 结合 ,并 制定 了 和 否定 语法 
规则 ,识别 出 微 博 中 表达 的 喜 、 喜 ` 钨 、 惧 ` 恶 . 惊 6 种 情 
绪 , 提 高 了 微 博 情 绪 倾 向 分 析 的 精度 ; 刘 全 超 等 ”构建 
了 情感 分 析 用 词 词典 .网络 用 语词 由 和 表情 符号 库 , 并 
结合 微 博 间 的 转发 和 评论 关系 来 设计 微 博 情感 倾向 性 
判定 算法 。 
还 有 采用 机 器 学 习 模型 来 解决 情感 倾向 分 析 问 

HH. A. Bakliwal 等 "整合 了 语义 特征 和 twitter 相关 特 
征 , 使 用 SVM 将 twitter 划分 成 正面 .负面 和 中 性 三 类 ，; 
B. Johan 等 等 ! * 利 用 心理 测量 工具 抽取 六 维 情感 向 量 来 
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完成 微 博 情感 倾向 性 的 判断 ;C，Tan 等 "假定 存在 社 
会 关系 的 用 户 更 有 可 能 拥有 相似 的 观点 ,因而 提出 将 
社会 关系 信息 引入 到 传统 的 SVM 中 来 构建 情感 倾向 
性 模型 ; 刘 志 明 等 2 分 别 使 用 SVM .朴素 贝 叶 斯 和 NN- 
Gram 方法 进行 情感 极 性 的 分 类 ; 朱 簿 等 "优化 了 半 监 
督学 习 方 法 reserved self -training 的 特征 选择 法 方法 和 
迭代 终止 条 件 ,有 效 防止 了 过 拟 合 现象 的 产生 ,提升 了 
模型 的 准确 率 ; 孙 建 旺 等 抽取 微 博 中 的 动词 和 形容 
词 作为 特征 ,依据 层级 结构 来 完成 特征 降 维 ,通过 表情 
符号 计算 特征 极 值 ,最 后 借助 SVM 将 微 博文 本 划分 成 
正面 .负面 和 中 性 三 类 。 

总 的 来 看 ,对 于 基于 情绪 知识 的 方法 来 说 ,构建 情 
绪 知 识 体系 会 带 来 较 高 的 人 工 成 本 ,无 论 是 情绪 词 标 
徐 还 是 情感 词典 ,建立 的 时 候 都 需要 进行 人 工 标注 。 
此 图 ,基于 情绪 知识 的 方法 的 使 用 范围 较为 受 限 ,只 能 
候 理 包含 这 些 情绪 知识 的 微 博 。 考 虑 到 中 文中 广泛 存 
礁 答 多 义 性 ,同一 个 情绪 知识 在 不 同 的 上 下 文中 往往 
还 对 表达 出 截然 不 同 的 情感 倾向 。 对 于 基于 传统 机 器 
学 过 人 异型 的 方法 而 言 , 现 有 的 方法 基本 都 围绕 着 SVM 
采 , 采 取 的 方式 集中 于 寻求 特征 上 的 扩充 与 完善 ,对 
分 类 模型 本 身 的 贡献 较 少 。 而 自动 编码 器 算法 具有 强 
帮 玖 非 线性 学 习 能 力 , 在 自然 语言 处 理 的 很 多 方面 邦 
取得 了 很 好 的 效果 ,是 一 个 值得 尝试 的 方向 。 此 外 ,机 
器 营 习 模型 的 大 部 分 特征 都 来 自 于 向 量 空间 模型 。 一 
方 重 向 量 空间 异型 无 法 描述 出 词 与 词 之 间 共 享 的 语义 
信息 ”, 会 影响 其 情感 倾向 性 判定 的 准确 性 ; 另 一 方 
面 5 微 博 口语 化 程度 高 ,缩写 频繁 .搭配 随意 ,通过 向 量 


空间 模型 转化 成 向 量 后 具有 高 维 稀 玻 的 特点 ,由 此 
带 来 的 维 数 灾难 问题 也 一 直 困 扰 着 传统 的 机 器 学 习 方 
法 。 而 单词 嵌入 可 以 在 有 限 维 度 上 较 好 地 刻画 出 每 个 
词 的 语义 特征 ,对 解决 上 述 问题 很 有 帮助 。 


2 基本 思路 


本 文 不 依靠 任何 人 工 标 注 的 情绪 知识 ,结合 微 博 
本 号 高 维 稀 玻 的 特点 ,提出 了 一 种 基于 单词 做 入 的 微 
博 向 量 和 深层 噪音 自动 编码 器 的 微 博 情 感 倾向 分 类 算 
ik WE SDAE( Word Embedding Stacked Denoising Auto- 
Encoder) 。 算 法 主要 包括 三 个 核心 步骤 :使 用 单词 舰 
入 获取 词 向 量 ;改进 自动 编码 器 提取 低 维 抽象 特征 和 
有 监督 全 局 调整 参数 以 完成 情感 倾向 分 类 。 
首先 ,经 过 预 处 理 后 的 微 博 文本 通过 单词 和 衣 人 
(word embedding) 的 方法 表示 成 一 个 分 布 式 低 维 稠密 
向 量 。 其 次 ,这 些 向 量 将 被 输入 到 优化 后 的 次 层 噪 音 
自动 编码 器 中 ,经 过 逐 层 无 监督 的 非 线性 学 习 , 转 化 成 
抽象 特征 。 自 动 编码 器 的 优化 过 程 包含 两 个 部 分 ,分 
别 是 往 目 标 函 数 添加 Ll 正则 项 和 在 预 处 理 后 的 训练 
数据 中 添加 噪音 。 最 后 ,在 自动 编码 吉 的 顶层 增加 一 
个 分 类 器 ,进行 有 监督 的 训练 ,全 局 调整 参数 ,得 到 最 
终 的 情感 倾向 分 类 算法 。 考 虑 到 微 博 中 存在 大 量 的 缩 
写 与 简写 ,用 词 灵 活 ,传统 中 文 分 词 工具 的 切 分 可 能 会 
带 来 较 多 信息 的 损失 ,算法 从 单字 和 词语 两 个 不 同 的 
粒度 进行 了 处 理 。 人 情感 倾向 分 类 算法 的 流程 如 图 1 所 
7: 
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1 WE SDAE 算法 流程 


3.1 ŽARA 

单词 能 入 的 实现 方法 有 很 多 种 , 目前 最 为 流行 的 
是 CBOW( Continuous Bag-Of -Word ) ^ 和 Skip -gram ^ 
两 种 方法 。 在 语义 相关 的 工作 中 ,Skip -gram 的 表现 优 
于 CBOW ,因而 采用 Skip -gram 方法 。 

当 给 定 一 组 训练 单词 (一 1) jw(t 1) wt) ,w 
(t+1) ,w(t+2) 时 ,Skip-gram 将 目标 单词 wt) 作为 输 
入 ,经 过 映射 层 的 处 理 后 ,输出 目标 单词 所 在 上 下 文 的 


单词 , 即 基于 相似 的 单词 拥有 相似 语 境 的 基本 假设 , 试 
图 通过 当前 目标 单词 来 预测 其 语 境 信息 。 算 法 的 流程 
见 图 2。 
利用 最 大 似 然 函数 的 思想 ,该 概率 语言 模型 的 目 
函数 如 公式 (1) 所 示 : 

p( Context(w) lw) = |l p(ulw) 公式 (1) 

当 使 用 Hierarchical Softmax 框架 求解 该 语言 模型 
时 ,输入 层 是 中 心 词 w 的 词 向 量 wv, 输出 层 是 Context 
(w) 对 应 的 Huffman 树 , 其 叶子 结 点 是 上 下 文 语 境 中 的 
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输入 层 映射 层 输出 层 


图 2 Skip-gram 结构 
词 , 权 值 是 各 词 在 语 料 中 出 现 的 次 数 , 此 处 的 映射 层 是 
一 个 恒 等 映射 ,保留 的 原因 仪 是 为 了 与 上 文 结构 一 致 ， 
如 图 3 所 示 : 


映射 层 
y= guy 

PP 有 AN 

T / d 5d o 

e 输出 层 | kil | 

z T | 

© Óo 

co 

© H3 基于 Hierarchical Softmax 框架 的 

x. Skip-gram 网 络 结构 

c Context ( w) 中 的 任意 词 w, Huffman 树 中 都 会 


fi AURA 点 的 路 径 path, , 
sed 其 中 第 j 个 结 点 对 应 的 编码 
ce 的 Huffman a 
,1] ( 根 结 点 不 对 应 编码 ) path, 中 
MATER b, LAGER 
- tnt 48 p fA EE BERT PUB LS 
dS cA ng 
乘 就 是 p(wulw) ,如 公式 (2) 所 示 : 


plulw) = Ñpld losha) BRC) 
Ep uo, 是 中 心 词 w f is] p] st , A BG DL) "8 16, 
然后 通过 随机 梯度 下 降 算法 迭代 优化 ,得 到 最 终 的 结 
果 , 即 包含 原 词语 义 信息 的 词 向 量 。 
3.2 WEDE 
假设 一 条 微 博 5 是 由 单词 w ,w; ,xs ,…，,z, 组 成 ， 
每 个 单词 w,(1<i<n) 都 可 以 通过 单词 舱 入 方法 Skip- 
gram 获得 一 个 词 向 量 w。 根 据 T， Mikolov 的 研究 成 
UST ,通过 Skip -gram 获取 的 词 向 量 之 间 的 基本 算术 
运算 具有 丰富 的 潜在 语义 信息 。 比 如 将 单词 “德国 ” 
的 词 向 量 与 单词 “首都 ”的 词 向 量 进行 相 加 ,获取 的 词 
向 量 与 单词 “柏林 ”的 词 向 量 十 分 相似 ,又 比如 单词 
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“国王 ”的 词 向 量 减 去 单词 男 "的 词 癌 量 , 再 加 上 单词 
“ 女 " 的 词 向 量 ,得 到 的 词 向 量 接近 于 单词 “女王 ”的 词 
向 量 。 依 据 Skip gram 的 这 个 特性 ,将 微 博 s 中 所 有 单 
词 的 词 向 量 的 平均 数 作 为 该 微 博 的 词 向 量 , 如 公式 
(3) ,思路 如 图 4 所 示 。 


ue 公式 (3) 
8 g B E avg avg 
um é 9 9 — o € HN 
®© o @ .. € € à 
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图 4 计算 单条 微 博 的 词 向 量 


所 有 微 博 数据 按照 上 述 方法 处 理 后 可 以 得 到 一 个 
微 博 矩阵 3$ ,公式 (4) 如 下 : 


公式 (4) 


Su 


其 中 ,M 代表 数据 中 微 博 的 条 数 ,d 代表 向 量 的 维 


数 。 
3.3 词 粒 度 和 字 粒 度 

首先 利用 中 文 分 词 工具 对 微 博文 本 进行 切 分 ,将 
划分 之 后 得 到 的 词语 作为 每 条 微 博 的 基本 组 成 单元 ， 
即 前 文 微 博 5 中 的 词 w ,ws Sw, vw, 是 指 分 词 后 的 词 
语 。 比 如 “中 国 加 油 ” 将 划分 成 “中 国 /加 油 ”。 本 文 把 
这 种 方式 看 作 基 于 词 粒度 的 词 向 量 获取 方法 。 

微 博 是 典型 的 短文 本 ,上 下 文 信息 有 限 、 缩 写 频 
繁 .噪声 大 ,分 词 工具 的 分 词 结果 并 不 准确 ,往往 存在 
较 多 歧义 。 比 如 “这 是 一 个 高 大 上 网 站 ”中 的 “高 大 上 
网 站 ” 如 果 使 用 传统 的 分 词 技 术 , 得 到 的 结果 为 “高 
大 /上 /网 站 ”或 者 “高 大 /上 网 /站 ” ,无 法 体现 出 微 博 
想 要 表达 的 正确 语义 。 此 外 , 微 博 中 不 断 出 现 大 量 新 
词 。 这 些 词 可 能 是 网 友 最 新 创造 出 来 的 , 比如 “ 城 会 
玩 ”“ 活 久 见 ”等 ,也 可 能 是 原 词 ,但 已 在 微 博 上 引申 出 
了 新 的 含义 ,比如 “我 来 安利 一 下 这 个 app” 中 “安利 ” 
不 再 代表 某 品牌 ,而 是 表示 “强烈 推荐 ”的 意思 。 这 些 
言 息 都 可 能 在 分 词 过 程 中 损失 ,导致 微 博 的 分 词 结果 
无 法 令 人 满意 。 因 此 ,本 文 借鉴 了 X. Zheng 等 在 解 
决 词性 标注 问题 时 的 方案 ,提出 了 基于 字 粒 度 的 词 向 
量 获取 方法 ,直接 将 微 博 中 的 所 有 字 都 拆 分 开 ,把 单个 


字 作 为 微 博 的 基本 组 成 单元 , 即 前 文 微 博 S 中 的 单词 
w, uo, voe, 将 代表 中 文中 的 单个 字 。 比 如 “高 大 
上 网 站 ”将 被 表示 成 “高 /大 /上 /网 /站 ”。 


4 ”自动 编码 器 提取 特征 


自动 编码 器 是 深度 学 习 中 一 种 重要 的 训练 模型 ， 
一 直 以 来 在 自然 语言 处 理 中 取得 了 较 好 的 效果 。 接 下 
来 将 利用 自动 编码 器 学 习 文 本 特征 ,并 在 此 基础 上 添 
加 正则 项 以 约束 算法 的 学 习 能 力 ,对 输入 数据 进行 加 
噪 处 理 以 提高 鲁 棒 性 ,县 加 多 个 自动 编码 器 以 提高 特 
征 抽象 能 
4.1 U 范式 正则 化 

自动 编码 器 强大 的 非 线 性 表达 能 力 虽 然 有 助 于 获 
职 质 象 特征 ,但 容易 出 现 过 拟 合 的 问题 , 即 对 个 体 所 特 


0 ,本 文 则 除了 会 选取 部 分 数据 强制 变 为 0, 还 会 挑选 
一 定 比例 的 数据 强制 变 为 标准 正 态 分 布 中 的 一 个 随机 
数 。 前 者 考虑 到 输入 向 量 中 的 数据 缺失 情况 ,训练 得 
到 的 自动 编码 器 应 该 具备 还 原 这 些 缺 失 值 的 能 力 ;后 
者 考虑 到 微 博 输入 中 广泛 存在 的 不 规范 性 ,保证 了 算 
法 能 够 避免 受到 这 些 个 性 化 或 者 无 关 输 入 的 干扰 。 
向 量 * 输入 编码 器 后 ,通过 线性 变化 ,再 经 过 激活 
函数 的 处 理 后 得 到 编码 结果 ,计算 见 公式 (7) 。 编 码 
结果 y 又 会 输入 到 解码 器 中 ,经 处 理 得 到 重 构 后 向 量 
z, 计 算 如 公式 (8) 所 示 : 
y=fo(x) 2 (Wu +b) 公式 (7) 
z-gy(y) 25(Wy b^) 公式 (8 ) 
编码 的 参数 是 0 = wb] ,解码 的 参数 是 0 W, 
六 | 。 其 中 ,W 是 一 个 d' x d 的 权重 矩阵 ,W' 是 W 的 转 


有 玖 信息 也 进行 了 充分 的 学 习 。 不 同 微 博 的 差异 较 
可 避免 地 包含 大 量 特有 特征 。 如 果 直 接 采 用 基 
术 玖 自动 编码 器 算法 ,抽取 的 特征 向 量 很 可 能 无 法 反 
晓 改 数据 的 本 质 共 性 ,训练 得 到 的 模型 的 泛 化 能 力 特 
别 油 , 无 法 进行 有 效 的 推广 扩展 。 因 此 需要 对 自动 纺 
码 医 的 学 习 能 力 进 行 了 约束 。 

CNILL 范式 正则 化 是 一 种 常用 的 变量 选择 方法 ,被 广 
沪 吕 用 于 各 种 算法 的 改进 工作 。 把 自动 编码 器 系数 的 
绝对 值 函数 当 作 惩罚 项 ,压缩 系数 值 , 将 绝对 值 较 小 的 
系数 直接 压缩 为 0, 从 而 保证 算法 参数 的 稀疏 性 ,避免 
过 纺 学 习 微 博 中 的 非 显著 特性 。 具 体 计算 如 公式 (5) 
MZR (6) 所 示 : 

L(x,z) = KL(x ||z) + Lasso(0) 
Q 


公式 (5) 
Lasso(0) =A © 16,1 公式 (6) 
其 中 ,损失 函数 为 Kullback -Leibler 散 度 ,使 用 经 典 
的 随机 梯度 下 降 算 法 进行 训练 ,入 是 Ll 范式 的 参数 ， 
ERK ,惩罚 力度 就 越 大 ,训练 得 到 的 结果 越 稀疏 , 具 
体 取 值 需要 根据 实际 数据 进行 调试 ,以 均衡 算法 的 拟 
合 能 力 和 泛 化 能 
4.2 加 噪 处 理 
考虑 到 微 博 输入 的 随意 性 很 高 , 大量 网 民 在 发 布 
微 博时 都 会 使 用 缩写 和 简写 ,甚至 一 些 个 性 化 的 语言 
和 符号 ,同时 由 于 输入 时 较为 匆忙 ,也 经 常会 出 现 多 
^] , 漏 输 其 至 错 输 文字 的 现象 ,这 要 求 面向 微 博 的 情感 
倾向 分 类 算法 必须 具有 和 较 强 的 鲁 棒 性 。 
针对 这 些 问 题 ,可 以 在 微 博 的 词 向 量 中 添加 一 定 
量 的 噪音 ,增加 训练 数据 的 干扰 性 。P，Vincent 等 ” 
添加 噪音 的 方式 是 随机 选择 一 定 比例 的 数据 强制 变 为 


B, W =W ,b 和 w' 是 相应 的 偏 倚 向 量 。 优 化 目标 
是 使 重 构 后 的 向 量 z 尽量 接近 输入 向 量 x, 即 最 小 化 重 
构 带 来 的 损失 ,得 到 最 优 参数 0 和 0… ,如 公式 (9) 所 
m: 


0 ,0 = argminL (x ,z) = argminL(x gy (f, (x) ) ) 
公式 (9) 
输入 向 量 x 在 加 入 噪音 后 变 成 *, 调 整 后 利用 随机 
梯度 下 降 算 法 得 到 编码 和 解码 的 最 优 参数 0 LOT, 
如 式 (10) 所 示 : 
0',0'* = argminL(x ,z) = argminL( xg, (f, ())) 


公式 (10) 


4.3 深度 自动 编码 器 

将 多 个 噪音 自动 编码 器 进行 琶 加 后 就 形成 了 深度 
学 习 网 络 。 释 加 的 自动 编码 器 层 数 越 多 ,学 习 抽象 特 
征 的 能 力 就 会 越 强 ” 。 在 训练 的 过 程 中 ,K-L 层 自动 
编码 器 输出 的 抽象 特征 向 量 加 上 噪音 后 作为 K 层 自动 
编码 器 的 输入 向 量 ,K 层 自 动 编码 器 通过 最 小 化 损失 
函数 ,使 得 解码 器 处 理 后 的 重 构 向 量 与 未 加 噪音 的 原 
始 输入 向 量 尽量 接近 。 不 断 优 化 调整 参数 ,获得 最 优 
解 后 ,K 层 自动 编码 器 将 丢弃 解码 器 部 分 ,并 把 编码 器 
处 理 后 的 抽象 特征 向 量 加 上 品 音 作为 K+1 层 的 输入 
向 量 ,继续 进行 下 一 层 的 训练 。 如 此 循环 , 逐 层 训练 ， 
就 形成 了 深层 噪音 自动 编码 器 模型 ,最终 得 到 特征 向 
量 。 其 结构 图 见 图 5。 


Lu 


S 情感 倾向 分 类 


前 文 的 深层 噪音 自动 编码 器 只 是 通过 无 监督 的 方 
式 提 取 了 微 博文 本 中 的 抽象 特征 ,还 无 法 完成 情感 倾 
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图 5 


向 性 分 类 工作 ,需要 在 深层 噪音 自动 编码 器 的 最 后 一 
层 的 后 面 再 添加 一 层 分 类 器 ,作为 最 终 的 输出 层 。 

该 层 的 输入 向 量 是 最 后 一 层 自动 编码 器 的 输出 结 
果 , 输 出 向 量 是 微 博 情感 倾向 向 量 。 此 处 定义 情感 标 
注 集 T= | 正面 ,中 性 ,负面 | ,因而 微 博 情感 倾向 向 量 
的 维 数 是 3, 形 如 v, = [a,5,c]”, 其 中 a 代表 该 微 博 正 
面 情感 标注 ,6 代表 情感 中 性 标注 ,代表 负面 情感 标 
注 5 值 为 1 表明 存在 情感 , 值 为 0 表明 不 存在 情感 。 候 
设 汪 条 微 博 仅 表达 一 种 主要 情感 ,比如 v= [1,0,0]” 
代 委 该 微 博 i 的 情感 借 向 是 正面 的 。 
加 该 层 的 处 理 过 程 包括 线性 变换 输入 向 量 和 激活 函 
类 SR 线性 调整 输出 最 终 向 量 两 个 步骤 。 这 里 选用 广泛 
克明 于 多 分 类 问题 的 sofmax 函数 作为 激活 函数 。 计 
OMARO) 所 示 : 

f(x) =sofimax(wx +b) ARAI) 

ON 其 中 ,we R Ch 是 情感 类 别 数量 ,此 处 为 3,4 是 
答 交 向 量 的 维 数 ) 代表 权重 矩阵 ,be R^ 代表 偏 置 项 。 
议 层 仍然 选用 KL 散 度 作为 损失 函数 ,衡量 了 算法 输 
出 同 量 与 目标 向 量 之 间 分 布 的 相似 性 ,计算 公式 如 
(1 各 所 示 : 
(T LOGÉOO) -KL AX)) 公式 (12) 

至 此 ,整个 微 博 情感 倾向 分 类 算法 WE, SDAE 的 
训练 过 程 可 以 总 结 为 两 个 步 又。 首先 ,算法 中 的 单 层 
噪音 自动 编码 器 将 依次 进行 无 监督 学 习 ,不 断 抽象 适 
代 , 逐 步 从 原始 输入 向 量 中 提取 得 到 数据 的 本 质 特征 ， 
作为 后 续 训 练 的 基础 。 这 一 步 中 每 一 层 的 训练 过 程 都 
是 相对 独立 的 。 然 后 借助 已 经 标注 好 的 情感 倾向 向 
量 , 将 进行 全 局 的 有 监督 学 习 , 训 练 方式 仍然 采用 标准 
的 梯度 下 降 法 即 可 。 该 优化 过 程 不 仅 调整 顶层 分 类 器 
中 的 参数 ,也 将 对 前 面 已 经 训练 好 的 所 有 噪音 自动 纺 
码 器 中 的 参数 进行 微调 ,保证 了 整个 过 程 具 有 最 佳 的 
学 习 能 力 , 见 图 6。 


6 实验 结果 与 分 析 


6.1 数据 源 选 择 及 数据 预 处 理 
实验 数据 来 自 2014 年 NLPCC 会 议 的 COAE( Chi- 


96 


| 加 加 输出 
编码 器 |- 和 | n 编码 器 || "UE 编码 器 ”| … 加 E s 特征 向 量 
a [cue Il 


Kel 


深层 自动 编码 器 结构 


无 监督 训练 ”无 监督 训练 “无 监督 训练 “无 监督 训练 
—— > — 


有 监督 全 局 调整 


输出 层 


bon 


输入 层 隐 m 


图 6 WE SDAE 算法 训练 过 程 


nese Opinion Analysis Evaluation) 微 博 测评 数据 集 。 该 
数据 集 共 包含 了 5 000 条 已 标注 好 的 微 博 数据 ,其 中 
2 656 条 带 有 正面 情感 倾向 ,2 344 条 带 有 负面 情感 倾 
向 ,在 此 基础 上 又 另外 爬 芭 和 人 工 标 了 2 500 条 中 性 
情感 倾向 的 微 博 数据 ,得 到 最 终 7 500 条 实验 数据 , 具 
体 见 表 1 ,数据 样 例 见 图 7。 同 时 数据 按照 4:1 的 比例 
随机 被 拆 分 成 两 部 分 ,分 别 作 为 训练 集 和 测试 集 。 
表 1 实验 数据 


类 别 正面 (条 ) 中 性 (条 ) 负面 (条 ) 
数据 量 2 656 2 500 2 344 


"| «weibo id- "227" emotion-type: 


«sentei = inio 
到 站 了 , 广播 响起 「 请 带好 你 的 贵重 物品 下 
</weib 


welbo» 
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="229" emotion-typel-'disgust" emotion-type2- "none" > 
ce id "1" opinionatedz "N* emotion-1-typez'disgust" emotion-2-typez "non 
点 不 伦 不 类 …“ 我 真 的 有 要 用 客户 闹 的 需求 吗 ? </sentence> 


g pen id="230" emotion-typel- "happiness" emotion-type2-- "none" 
图 7 标注 好 的 微 博 情感 样 例 数据 


COAE2014 中 的 微 博 数据 集 已 经 经 过 了 一 定 的 清 
洗 整理 ,去 除了 表情 符号 和 系统 自动 生成 的 “转发 微 
博 ”" 等 信息 ,保存 成 了 文本 格式 。 在 此 基础 上 ,又 进行 
了 如 下 4 步 预 处 理 : 

(1) 拆 分 多 次 转发 的 微 博 。 比 如 数据 集中 的 某 条 
微 博 为 "看 看 相片 ,看 看 孩子 可 怜 的 身体 , 慎 怨 !! //@ 
张 晶 梅 : 是 真 的 吗 ? //@ 阿 子 :他 是 从 罗马 尼 亚 流 帘 过 
来 的 么 ??”, 这 实际 包含 了 多 位 用 户 的 多 条 微 博 , 因 而 
需要 分 割 还 原 。 


C hinaX Ive 1 4 = EHH 十 | 


基于 词 向 量 的 微 博 情感 倾向 分 类 研究 [J]. 图 书 情报 工作 ,2018 ,62(15 ) :92 - 101. 


(2) 去 除 无 关 文 本 ,比如 “回复 @fyx 璇 :哈哈 ,我 
可 是 鲁能 泰山 的 忠实 球迷 ,今年 中 超 南京 客场 我 可 找 
你 啊 ” 中 “回复 @ fyx 3i: "部 分 并 不 是 用 户 发 布 的 微 博 
内 容 ,与 情感 倾向 分 析 无 关 。 

(3) 去 除了 链接 的 地 址 内 容 ,但 保留 关键 词 “ hr 
tp”。 微 博 中 的 链接 都 是 系统 自动 生成 的 短 链 , 地 址 本 


6.3 算法 实现 

本 文 提出 的 情感 倾向 分 类 算法 WE_SDAE 在 具体 
实现 时 可 以 分 成 两 个 步骤 ,分 别 是 获取 微 博 向 量 和 情 
感 分 类 ,同时 考虑 了 字 和 词 两 种 不 同 的 粒度 。 

(1) 获 取 微 博 向 量 。 预 处 理 之 后 的 微 博 首先 会 被 
切 分 ,然后 通过 单词 谍 入 的 方式 获取 每 个 字 或 者 词 的 


身 并 不 包含 太 多 信息 ,但 是 考虑 到 添加 链接 的 行为 可 
能 表明 用 户 对 自己 立场 的 坚定 ,因而 表明 添加 行为 的 
信息 还 是 需要 保留 。 比 如 “质量 很 垃圾 !! 我 在 :ht 
tp://t. en/zjOsEIS" , 

(4) 去 除 @ 的 名 字 内 容 , 但 保留 关键 词 "@ " 
行为 一 般 发 生 在 作者 带 有 正面 RM. 
但 是 名 字 内 容 与 其 情感 无 关 ,因而 可 以 直接 去 除 。 比 
ATUS TE I fi ,不 过 日 本 车 , 哎 ! 还 是 喜欢 奥迪 ! 
@QNickeol 星 @ 夏 日 料理 王 @ ss628 € Mg nf myn myin 
m @ 潘 炜 晨 ”。 

二 除 此 之 外 ,在 预 处 理 过 程 中 强调 保留 了 标点 符号 
FOU ot A 息 。 这 是 因为 标点 符号 是 用 户 情感 的 重 
BNR, 不 同 标点 符号 倾向 的 情感 信息 往往 也 是 
民国 的 ,比如 *7" 表 示 疑 问 ,经 常 在 负面 情感 借 向 中 使 

jo 话题 标 签 是 微 博 讨论 内 容 的 精简 概括 ,往往 也 
特定 的 情感 信息 ,有 助 于 更 好 地 判定 情感 倾向 。 


和 


Du # 信 用 卡 里 传 来 了 绝望 的 喝 咽 # 等 。 


评价 指标 
(5 使 用 平均 了 值 Rs 来 筛选 参数 ,评价 实际 效果 时 
则 竖 体 分 析 了 每 类 情感 倾向 C, Ay F, (7 7 s F, E 
是 经 类 情感 倾向 F, 值 的 平均 值 ， 计算 公式 如 (13) 所 示 : 
© ir, 
«7 GC 公式 (13) 
其 中 ,C 是 不 同情 感 倾 向 类 别 的 个 数 ,在 本 文中 C 
取 值 为 3。 
F, 值 综合 考虑 了 情感 倾向 类 C, 的 正确 率 与 召回 
率 。 其 值 越 大 ,代表 情感 倾向 分 类 在 该 类 上 的 表现 越 
好 。 计 算 公 式 如 (14) 和 (15 ) 所 示 : 


F 


o 


F, _2 precion, : recall, 公式 (14) 


(precision, + recall,) 


m 


right, M ight, 


, recall, = 
+m M an, 


公式 (15) 

其 中 ,mi 是 被 正确 分 到 情感 倾向 类 C; 的 微 博 数 

,me 是 被 错误 分 到 情感 倾向 类 C, 的 微 博 数量 ,mw 
情感 倾向 类 C, 中 实际 包含 的 微 博 数量 。 


Frecision, = 


种 I 


向 量 ,最 后 通过 公式 计算 得 到 最 终 的 向 量 。 

在 切 分 微 博 数据 时 , 字 粒 度 的 处 理 比较 简单 ,直接 
将 清洗 好 的 微 博 按照 单个 字 进 行 一 一 分 割 。 比 如 “ 喜 
欢 这 款 产品 ! ”分 割 后 得 到 ” 喜 / 欢 /这 《/ 录 PAR. o 
当 粒 度 要 求 为 词 时 ,使 用 中 文 自 然 语 言 处 理 中 最 常 使 
用 的 NLPIR 汉语 分 词 系统 对 微 博 数 据 进行 划分 。“ 喜 
欢 这 款 产 品 !” 的 划分 结果 将 会 变 成 “喜欢 /这 / 款 / 产 
品 Z!”。 处 理 过 程 中 需要 注意 的 是 每 个 标点 符号 也 作 
为 一 个 单独 的 字 或 者 词 保留 在 划分 后 的 数据 中 。 

训练 词 向 量 的 Skip -gram 方法 已 经 在 开源 工具 
word2vec 中 得 到 了 高 效 的 实现 ,实验 中 直接 使 用 该 工 
具 获 取 微 博 数据 的 词 向 量 。 根 据 V. Mikolov 等 ”的 
观点 ,训练 时 使 用 的 数据 量 越 大 ,训练 得 到 的 词 向 量 就 
能 更 好 地 描述 该 词 的 语义 特征 , 因而 将 使 用 
COAE2014 的 全 量 40 000 条 微 博 数据 训练 每 个 词 向 
量 。 在 粒度 为 字 的 词 向 量 训练 过 程 中 , 微 博 的 基本 构 
成 单元 是 单个 字 ,word2vec 将 为 每 个 字 训 练 得 到 一 个 
对 应 的 词 向 量 ; 在 粒度 为 词 的 词 向 量 训练 过 程 中 , 微 博 
的 基本 构成 单元 变 成 了 分 词 后 的 词语 ,word2vec 将 会 
为 每 个 切 分 后 的 词语 训练 得 到 一 个 对 应 的 词 向 量 。 为 
了 保证 基于 字 粒 度 的 模型 和 基于 词 粒 度 的 模型 具有 更 
强 的 可 比 性 ,在 训练 词 向 量 时 将 采用 同一 组 参数 ,参数 
内 容 如 表 2 所 示 

表 2 Word2vec 参数 列 示 


T 


参数 名 称 参数 值 
词 向 量 维 数 (size) 300 
上 下 文 窗口 (window) à 
最 低频 率 ( min-count) 5 
AFER IR (sample) le3 
迭代 次 数 (iter) 10 


根据 中 文 词 向 量 方面 的 研究 经 验 , 将 词 向 量 的 长 

度 设 为 300 , 即 每 个 词 都 会 被 映射 到 维 数 为 300 的 连续 
空间 中 。 上 下 文 窗口 设置 为 8, 即 上 下 文 语 境 信息 将 
由 该 词 前 面 8 个 词 和 后 面 8 个 词组 成 。 最 低频 率 为 5 
保证 了 只 有 在 数据 集中 出 现 次 数 大 于 5 的 词 才 会 被 加 
入 到 词 向 量 库 中 ,那些 未 被 加 入 的 词 将 会 被 随机 初始 
化 。 采 样 阔 值 le-3 决定 一 个 词 在 训练 过 程 中 是 否 会 
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被 采样 ,如 果 一 个 词 出 现 的 频率 超过 了 该 贱 值 ,该 词 就 
会 被 采样 以 太 约 训练 时 间 。 本 次 词 向 量 的 迭代 次 数 为 
10 次 。 

经 过 上 述 步 又 ,无 论 字 粒度 还 是 词 粒 度 的 数据 都 
已 得 到 了 对 应 的 词 向 量 库 , 接 下 来 将 依次 处 理 得 到 微 
博 向 量 。 对 于 处 理 后 的 字 粒 度数 据 , 每 条 微 博 中 的 每 
个 字 对 应 一 个 词 向 量 ,汇总 这 些 向 量 , 根 据 算法 设计 中 
的 公式 (3) 可 以 计算 得 到 该 微 博 的 向 量 ;对 于 处 理 后 


选择 也 将 分 开 进 行 。 候 选 的 参数 值 如 表 3 Bron: 
RI 候选 参数 值 


隐藏 层 数量 2/3/4/5/6 
单 层 结 点 数量 100/300/500/700 
正则 化 惩罚 系数 le-1/1e2/1e-3/1e4/1e-5 
加 噪 比例 0. 1/0. 2/0. 3/0. 4/0. 5 


由 图 8 可 知 ,在 训练 集 上 的 整体 表现 是 随 着 隐藏 


的 词 粒度 数据 ,汇总 向 量 来 自 于 词 粒度 的 词 向 量 库 , 同 
样 按照 公式 (3 ) 计 算 获 得 最 终结 果 。 

(2) 实 现 分 类 算法 。 利 用 深度 学 习 库 theano 实现 
WE SDAE 算法 。 训 练 过 程 中 的 关键 参数 包括 隐藏 层 


数量 . 单 层 结 点 个 数 正则 化 惩罚 系数 和 加 噪 比例 。 由 

ee 
字 粒 度 模型 的 隐藏 层 参数 选择 

E p 

(© 0.87 

e Ba oa Iq 一 训练 集 

© em 测试 集 

CO ns 2 3 4 5 6 

e HESE 

N 

e 


C lg 9 可 知 , 随 着 单 层 结 点 数 的 增加 ,训练 集 上 的 
表现 逐步 变 优 , 然后 趋 于 稳定 ,最 后 略微 出 现 一 些 下 
清 AE 这 也 符合 Y. Bengio 之 前 的 研究 成 果 "” ,自动 纺 
码 眉 在 输出 层 维 数 较 大 时 可 以 获得 比较 好 的 特征 提取 


= 词 料 度 模型 的 单 层 结 点 数量 选择 
C 0.88 
0.87 
[e 0.86 二 一 一 
0.85 
0.83 emendi i e 
Fa 一 测试 集 
0.8 
0.79 
100 300 500 700 
单 层 结 点 数量 
图 9 单 层 结 


由 图 10 可 知 ,正则 化 惩罚 系数 越 大 , 越 多 的 参数 
会 被 置 为 0, 学 习 能 力 将 被 进行 更 强 的 限制 。 在 实验 
中 , 随 着 正则 化 惩罚 系数 的 不 断 变 小 ,在 训练 集 和 测试 
集 上 的 表现 从 整体 趋势 来 看 都 是 先 变 好 ,后 变 差 , 并 且 
训练 集 和 测试 集 上 的 表现 差异 也 是 在 同一 个 值 处 达到 
最 小 。 无 论 是 字 粒 度 模型 还 是 词 粒度 模型 ,最 佳 正则 
化 惩罚 系数 都 是 le3。 

由 图 11 可 知 , 随 着 加 噪 比例 的 增加 ,训练 集 和 测 
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层 数 量 的 增加 而 越 来 越 好 ,说 明 隐 藏 层 越 多 ,从 训练 集 
中 提取 的 抽象 特征 包含 的 信息 就 越 丰 富 , 但 也 可 能 
现 过 拟 合 。 从 测试 集 上 的 效果 看 ,表现 呈 单 波峰 状 , 基 
于 字 粒 度 的 模型 在 层 数 为 4 时 达到 最 优 ,而 基于 词 粒 
度 的 模型 在 层 数 为 3 时 就 已 经 达到 了 最 优 。 


词 粒度 模型 的 隐藏 层 数 呈 选择 
0.87 RE 
0.865 - 
i -> Ji 


0.84 — 测试 集 


4 


8 隐藏 层 选择 


效果 。 算 法 在 测试 集 上 的 表现 仍然 是 单 波 峰 状 ,而 且 
无 论 是 字 粒 度 模型 还 是 词 粒 度 模型 均 在 单 层 结 点 数量 
为 500 时 达到 最 佳 。 


字 粒 度 模型 的 单 层 结 点 数量 选择 
09 
088 
084 | 
F 
“0.821 
08 | 一 训练 集 
078 | -一 网 试 集 
076 1 
074 L 
10 — 30 — 50 70 
单 层 结 点 数量 


试 集 上 的 表现 差异 越 来 越 小 ,并 且 在 测试 集 上 的 表现 
越 来 越 好 ,说 明 对 于 微 博 这 类 用 词 较为 随意 的 短文 本 ， 
增加 噪音 的 确 增强 了 算法 的 抗 干扰 能 力 。 整 体 上 , 词 
粒度 模型 的 波动 比 字 粒 度 模 型 更 为 明显 ,说 明 划 分 成 
词 的 过 程 中 出 现 了 一 些 偏差 ,存在 更 多 的 噪音 信息 。 
词 粒度 模型 的 最 优 加 噪 比例 为 0.5, 字 粒度 模型 的 最 
优 加 噪 比例 为 0.4。 噪 音 通过 两 种 方式 来 添加 ,部 分 
置 0 ,部 分 置 随机 数 。 在 本 次 实验 中 ,该 比例 设 为 4:1。 
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字 粒 度 模型 的 正则 化 惩罚 系数 选择 
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图 10 


字 粒 度 模型 的 加 噪 比例 选择 


emm EE 

0.855 ee 测试 集 
0.85 
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加 噪 比例 
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(CO 综合 以 上 分 析 , 字 粒度 模型 在 包含 4 层 隐藏 层 ,每 
点 数 设 为 500 ,正则 化 惩罚 系数 le-3 ,加 噪 比 例 
40 殉 时 达到 最 佳 ; 词 粒度 模型 在 3 层 隐 藏 层 ,每 层 结 点 
数 500 ,正则 化 惩罚 系数 le3 ,加 噪 比例 5096 的 情况 下 
itt. 此 时 ,算法 在 各 情感 倾向 类 别 上 的 表现 如 
ROR: 


N R4 ， 字 粒度 和 词 粒 度 模 型 的 F 值 对 比 


UU 正面 中 性 负面 平均 值 
s m 
> 0.871 0. 862 0. 865 0. 866 
Cip E 0. 863 0. 853 0. 858 0. 858 


Ds a. po BE CR Gc s RR 
WS HAE T RE KTA E EUM E ,说 
明 对 于 微 博 语 料 而 言 ,传统 分 词 工具 在 切 分 工作 中 的 
确 存 在 不 够 准确 的 问题 ,损失 了 部 分 信息 ,而 字 粒 度 的 
模型 能 够 更 好 地 保留 微 博 中 的 信息 ,获取 更 加 全 面 有 
效 的 特征 。 

12 是 字 粒 度 的 详细 实验 结果 ,从 图 中 可 知 ,对 
正面 的 情感 计算 精确 度 最 高 ,说 明正 向 情感 更 容易 判 
别 , 但 是 召回 率 较 低 ,说 明 有 一 些 正面 情感 丢失 ,而 中 
性 情感 正 相 反 , 说 明 不 少 正 面 情感 被 分 到 了 中 性 情感 
类 ,负面 情感 则 介 于 中 间 ,说 明 其 特点 不 够 显著 ,这 也 
是 本 算法 的 特点 ,并 没有 依赖 标注 的 情感 体系 或 情感 
词 库 ,但 各 项 指标 也 都 获得 了 较 理想 的 结果 。 

6.4 对 比分 析 

实验 中 设计 了 两 组 对 比 实验 来 验证 WE_SDAE 算 
法 的 合理 性 与 有 效 性 。 根 据 前 文 的 实验 分 析 可 知 , 字 
粒度 模型 的 综合 表现 优 于 词 粒度 模型 ,因此 ,下 文 用 于 
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词 粒 度 模型 的 加 噪 比例 选择 

0.86 Ce 

0.855 

0.85 
F, 0845 | 

0.84 mel 

0635 一 测 坛 集 
0.82 + 一 


100E-01 200E-01 300E-01 4.00E-01 5.00E-01 
加 噪 比例 
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Test Acc: 86.6% 
Precision, Recall and F1-Score... 


precision recall fl-score 


正面 0.893 0.849 0.871 0.915 

中 性 0.835 0.891 0.862 0.808 

负面 0.872 0.858 0.865 0.879 
图 12 基于 字 向 量 的 实验 结果 


对 比 的 WE_SDAE 算法 都 是 基于 字 粒 度 实现 的 。 

(1)WE_SDAE 与 WE_SVM 的 对 比分 析 。 目 前 情 
感 倾向 分 类 使 用 最 多 的 算法 是 SVM ,因此 将 在 同样 的 
数据 集中 训练 WE-SVM 算法 ,将 其 结果 与 WE_SDAE 
进行 比较 。 

使 用 SVM 工具 包 LibSVM 来 进行 实验 。 数 据 预 处 
理 方 式 与 基于 字 粒 度 的 WE_SDAE 算法 完全 相同 ,最 
终 每 条 微 博 都 会 被 表示 成 连续 空间 中 的 一 个 向 量 。 经 
过 调试 优化 ,WE-SVM 在 测试 数据 集 上 的 效果 与 WE_ 
SDAE 进行 了 对 比 ,结果 如 表 5 所 示 : 

表 5 WE SDAE 和 WE_SVM 算法 的 下 值 对 比 


算法 正面 中 性 负面 平均 值 
WE_SDAE 0.871 0. 862 0. 865 0. 866 
WE_SVM 0.829 0.812 0.831 0. 824 


由 此 可 知 , WE_SDAE 算法 的 确 优 于 传统 的 WE - 
SVM ,深层 噪音 自动 编码 器 能 够 更 好 地 提取 微 博 的 抽 
象 特征 ,帮助 分 类 器 得 到 更 为 准确 的 情感 倾向 判定 结 
果 。 

(2)WE_SDAE 5j VSM. SDAE 的 对 比分 析 。 使 用 
单词 嵌入 (Word Embedding ) 方法 获取 每 条 微 博 向 量 ， 
其 实 目前 在 中 文 自 然 语言 处 理 中 ,更 为 常见 的 方式 是 
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使 用 向 量 空间 模型 ( Vector Space Model) 来 处 理 微 博 数 
据 ,因此 将 把 实验 数据 处 理 成 VSM 的 形式 ,与 WE 方 
式 进行 对 比 。 

实验 首先 将 微 博 数 据 按照 字 粒 度 进行 分 割 ,然后 
去 除 那些 出 现 次 数 小 于 5 次 的 字 ,一 共 得 到 5 236 个 不 
同 的 字 , 则 对 应 的 微 博 向 量 长 度 也 为 5 236。 为 了 保证 
VSM 方式 和 WE 方式 处 理 后 的 数据 能 够 在 同一 个 分 类 
器 中 进行 ,需要 对 经 VSM 方式 处 理 的 微 博 向 量 进行 降 
维 。 使 用 Scikit-Leam 中 的 PCA 算法 将 向 量 处 理 成 300 
维 ,然后 输入 到 分 类 器 中 进行 训练 ,结果 见 表 6。 其 
中 ,还 给 出 了 文 持 向 量 机 (SVM) ,朴素 贝 叶 斯 方法 (N- 
Bayes ) 和 集成 分 类 (XgBoost ) 等 算法 的 对 比 结果 。 

表 6 WE SDAE 和 VSM_SDAE 算法 的 了 值 对 比 


正面 中 性 负面 平均 值 
0.871 0. 862 0. 865 0. 866 
0.816 0.791 0. 805 0. 805 
0.767 0.738 0. 759 0.755 
0.711 0.731 0. 695 0.712 
0.756 0.787 0. 743 0. 762 


量 空间 模型 。 一 方面 ,单词 嵌入 在 一 定 程度 上 
入 了 维 数 灾难 问题 ,避免 了 降 维 操作 ; 另 一 方面 , 它 
芝 裔 更 好 地 挖掘 出 文本 的 语义 与 语 境 信息 ,有 助 于 解 


n 


: 
Verre] 4) 206 8] T. 


-一 本文 从 三 个 方面 提出 了 面向 微 博 情感 从 向 分 类 的 
新 轴 路 :0 考虑 到 通过 传统 空间 向 量 模型 获取 的 词 向 
量 既 忽略 了 词 与 词 之 间 的 语义 相关 性 ,又 缺失 了 语义 
分 析 中 重要 的 上 下 文 信息 ,使 用 单词 嵌入 的 方式 将 微 
博 中 的 每 个 词 映射 成 连续 空间 中 的 一 个 向 量 , 最 大 限 
度 地 保留 微 博文 本 自身 的 语义 信息 ;@) 算 法 不 再 依赖 
任何 人 工 标注 的 情绪 知识 体系 ,也 不 再 拘泥 于 传统 的 
机 器 学 习 模型 ,而 是 改进 了 深度 学 习 中 的 自动 编码 器 
算法 ,借助 其 强大 的 无 监督 非 线性 学 习 能 力 ,来 完成 微 
博 特征 的 抽取 与 情感 倾向 的 预测 工作 ;@ 微 博 作 为 一 
种 轻松 社交 媒体 ,用 户 在 使 用 微 博时 的 用 语 往往 比较 
随意 ,存在 大 量 的 缩写 。 传 统 分 词 工具 很 可 能 无 法 准 
确 地 识别 出 这 些 信息 ,因而 实验 从 单字 和 词语 两 个 粒 
度 来 划分 微 博文 本 , 尽 可 能 地 减少 不 必要 的 信息 损失 。 

本 文 提出 的 算法 会 受到 语料库 的 影响 ,语料库 更 
大 或 者 更 专业 会 使 字 词 编码 更 准确 ,有 利于 提高 算法 
精度 。 同 时 ,因为 缺少 情感 词 库 的 辅助 ,算法 对 情感 词 
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的 把 握 不 准 ,下 一 步 可 以 考虑 增加 情感 词 的 强化 处 理 。 
同时 ,进一步 的 研究 还 包括 结合 句法 分 析 和 上 下 文 语 
义 关系 等 。 
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Sentiment Classification for Micro-Blogs Based on Word Embedding 
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eei Abstract : [ Purpose/significance | Weibo has become an important platform for public emotional expression. Wei- 
bof s sentiment analysis plays an important role in public opinion analysis, user experience, and business opportunities. 
[ Method/ process ] The sentiment orientation model named WE_SDAE proposed by this paper uses word embedding to 
trasform a weibo into a dense low-dimensional vector and optimizes the simple auto -encoder into a deep denoise auto-en- 
coder by appending a regularization term in the equation and adding noise during data pre-processing. Besides, the top- 
level classifier does the final sentimental classification. Considering the flexible term usage in the weibo, the sentiment o- 
rientation model is trained on character level and word level respectively. [ Result/ conclusion ] The experimental results 
show that character-level model beats word -level model. In addition , comparative experiments show that WE_SDAE is bet- 
ter than traditional classifier SVM, Naive-Bayes, XgBoost, etc. , and word embedding data preprocessing is better than 
traditional vector space model representation. 
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